导航菜单
首页 >  大数据 研究生  > 大数据的若干基础研究方向

大数据的若干基础研究方向

朱扬勇1,2,熊贇1,2

1.复旦大学计算机科学技术学院,上海 200433;

2.上海市数据科学重点实验室,上海 200433

(引用标注:朱扬勇,熊贇.大数据的若干基础研究方向[J].大数据,2017,3(2):104-114.)

摘要 大数据问题的关键技术挑战在于:找到隐含在低价值密度数据中的价值;在希望的时间内完成。指出前者需要将领域知识和数据技术结合,这种结合的理论和新型算法构成大数据的分析基础和应用基础;后者需要设计新的计算机、集群体系、计算框架、存储体系和数据管理方法,这些构成大数据的计算基础和数据基础。另外,这两个挑战都涉及数学理论,这是大数据的数学基础。系统地分析了大数据的数学基础、计算基础、数据基础、分析基础和应用基础等基础研究方向。

关键词 大数据;数据科学;大数据基础;数据资源

Abstract The key technical challenges for big data lie in how to discover the value of the low-value-density data and how to complete the task in the desired time. The ways to take up these challenges from three aspects were discussed. First is that the former challenge requires the combination of domain knowledge and data technology. This combination of theory and new algorithms forms the basis of application and analysis of big data. Second is that the latter challenge needs to design new types of computer, cluster system, computing framework, storage system and data management method, which forms the basis of computing and data of big data. Thirdly, both challenges relate to mathematical theory, which is the basis of mathematics of big data. In conclusion, several foundation issues for big data research including the basis of mathematics, computing, data, analysis and application of big data were analyzed.  

Key words big data, data science, foundation of big data, data resource

1 引言

数据资源开发利用的目的是实现大数据价值。大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称[1];大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题[1]。就当下而言,现有技术难以处理PB级别以上的数据。PB级别的数据规模已经超过了大部分企业和机构自身积累的业务数据规模,这说明PB级别数据规模的应用涉及了企业和机构外部的数据,这是质的转变。在PB级别数据规模下,企业和机构可以用历史数据、跨界数据等足够多的数据来做决策。这将对科学研究、政府治理、民生改善、产业发展发挥革命性的作用。PB级别数据规模带来的技术挑战也是非常明显的,即“大数据问题”。从技术角度看,PB级别的数据量给计算机的硬件和软件都带来了挑战:机械硬盘、盘阵、体系结构、计算框架、数据移动、多地计算/异地计算、数据管理、数据分析等。随着计算技术的进步,这些技术问题是否就会得到解决?回答是否定的。摩尔定律(Moore’sLaw)不能解决大数据问题,摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(GordonMoore)提出来的[2]。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,每隔18~24个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18~24个月翻一倍以上。这一定律揭示了信息技术进步的速度。自从PC时代以来,每次技术进步生产的计算机以亿万台计,每台计算机都在生产数据。现在想将很多台计算机生产的数据集中起来处理和分析,显然是现有技术不能实现的。这就是大数据问题产生的根源。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值;在希望的时间内完成所有的任务。前者需要领域业务知识和数据技术相结合,这种结合的理论和新型算法构成了大数据的分析基础和应用基础;后者需要设计新的计算机、集群体系、计算框架、存储体系和数据管理方法,这些构成了大数据的计算基础和数据基础。另外,这两个挑战都涉及了一些抽象的数学理论,这是大数据的数学基础。面对大数据问题的挑战,需要研究如何发展大数据,如何从实践总结经验,抓住核心问题重点突破,实现原始创新,从基础做起,掌握核心技术,探索大数据的基础理论,为解决大数据如何用、如何管、如何算等关键问题提供理论指导。

2 大数据的基础

信息化和大数据二者的关系是“不混淆、不冲突”。

 ●不混淆是指信息化和大数据是不同的,不能混为一谈,信息化是生产数据的,大数据是开发数据的。从技术角度来看,信息化是技术进步促进数据增长;大数据是数据增长促进技术进步。

 ●不冲突是指大数据不取代信息化,信息化不包含大数据。这样,信息化工作照样做,并且信息化仍然将快速发展。但大数据已经从信息化工作中独立出来,如果说信息化对应的技术叫信息技术(informationtechnology,IT),那么大数据对应的技术可以叫数据技术(data technology,DT)。

核心点是数据增长促进技术进步。例如,当前10 PB规模的数据无论是从上海到北京,或者是从一个数据中心到另外一个数据中心,甚至从一个存储集群到另一个存储集群,都是困难的、难以忍受的。既然数据大到难以移动,那么如何集成多个数据资源进行计算,如何设计数据不移动、软件移动的计算模型,实现多地计算、异地计算。又如,如何开发利用数据资源,如何确保数据安全和数据主权,这些都是数据量增长对技术进步的要求。信息化的技术和大数据的技术是不同的,参考文献[1]给出了二者技术的对比。这样,信息化的基础研究和大数据的基础研究也是不一样的。大数据的基础包括:应用基础、分析基础、数据基础、计算基础和数学基础5个方面。

大数据的应用基础包括各学科、各领域的基于数据的新方法、新范式、新理论等,用于支撑基于大数据的科学研究方法、社会发展方式、经济建设模式和国防安全手段。大数据的应用基础是建立在大数据技术、产品、工具和解决方案之上的,而这些产品和工具的开发需要大数据的分析基础。大数据的分析基础包括大数据分析理论与框架、大数据分析方法和算法、业务驱动的分析理论和方法等,大数据分析方法和算法的实现和实施需要大数据的数据基础、计算基础和数学基础。大数据的数据基础包括大数据的治理和管理、存储理论和模型、可视化等;大数据的计算基础包括多地计算/异地计算、计算框架、硬件设备、网络设备等;大数据的数学基础包括数据的数学结构、数据代数、数据相似性等。图1给出了大数据基础的逻辑关系。

图1 大数据基础逻辑关系

自2012年起,国家自然科学基金委员会对大数据研究开始立项,总体资助情况分布如图2所示。

图2  2012—2016年国家自然科学基金资助的以“大数据”为主题词的项目数

从图2可以看出,在这5年期间,大数据相关项目资助数持续增长,尤其是在2014年,相对于2013年有较大幅度的增长。2012年,大数据概念刚刚兴起,国家自然科学基金项目申请时间点已过,所以2012年几乎没有什么项目。2013年,各学部开始支持大数据项目,全社会掀起大数据热,各行各业都在讨论大数据。于是,到2014年,大数据项目大幅度增长,主要是应用基础的研究项目大幅度增长,几乎每个学部都支持了大数据的研究项目(如图3所示)。受资助的大数据相关项目在应用基础、分析基础、数据基础、计算基础和数学基础各方面的项目资助占比情况如图4所示。总体来看,科研项目关注最多的是对各个领域大数据应用问题的研究(应用基础占62%),其次主要集中在大数据挖掘方法研究(即分析基础占18%),其他依次为:数据基础(占11%)、计算基础(占7%)和数学基础(占2%)。

图3  2012—2016年国家自然科学基金委员会各学部资助项目数分布

图4  2012—2016年在五大基础方面的项目数总占比

从2012—2016年每年的占比情况来看(如图5所示),应用基础有明显的上升趋势;分析基础在2013年有明显的上升,随后占比较为平稳;数据基础历年占比都较为平稳,且所占比重也并不大;计算基础所占比例呈现出逐年下降的趋势(2016年稍有回升);数学基础被关注的比例历年很低,并维持稳定(低比例)。

图5  2012—2016年在五大基础方面的项目数年度占比

从图5可以看出,在2012年大数据发展初期,计算框架和计算能力是推动大数据发展最急需的基础,而之后随着开源计算框架的出现,计算基础的比例又开始下降。然而,2016年,数据开放共享成为趋势和重点,数据迁移、异地交换的需求又促进研究者探索新的计算框架。并且,分析基础在2013年的突增也说明当时对大数据方法需求的增长,随后相对稳定。在计算基础下降的过程中,应用基础占比逐渐上升,这说明越来越多的领域参与到大数据的研究中来。

图6为2012—2016年国家自然科学基金项目在五大基础方面的项目数的变化情况。可以看出,大数据研究过程中数学基础方面还需要

相关推荐: